草庐IT

flink 流批

全部标签

flink-cdc,clickhouse写入,多路输出

1、场景kafka日志数据从kafka读取1、关联字典表:完善日志数据2、判断日志内容级别:多路输出低级:入clickhouse高级:入clickhouse的同时推送到kafka供2次数据流程处理。2、实现packagecom.ws.kafka2clickhouse;importcn.hutool.json.JSONUtil;importcom.ws.kafka2clickhouse.bean.CompanyInfo;importcom.ws.kafka2clickhouse.bean.LogEvent;importcom.ws.kafka2clickhouse.sink.MyClickHou

Iceberg从入门到精通系列之七:Flink SQL创建Catalog

Iceberg从入门到精通系列之七:FlinkSQL创建Catalog一、语法说明二、flink集成hivejar包三、放到指定目录四、启动hivemetastore服务五、创建hivecatalog六、查看catalog七、HadoopCatalog八、创建sql-client初始化文件九、启动flinksql指定初始化文件一、语法说明createcatalogcatalog_name>with('type'='iceberg',``=``);type:必须是icebergcatalog-type:内置了hive和hadoop两种catalog,也可以使用catalog-impl来自定义ca

Flink本地checkpoint测试

一、概述在本地IDEA测试中,使用本地文件存储系统,作为checkpoint的存储系统,将备份数据存储到本地文件中,作业停止后,从本地备份数据启动Flink程序。主要分为两步:1)备份数据2)从备份数据启动二、备份数据备份数据的配置,和使用HDFS文件体统类似,只不过路径填写成本地文件系统的路径,注意格式需要是file:///******/******/,和HDFS文件系统的配置略有不同。文件具体存储的位置,在idea安装路径的根路径下。比如本人IDEA安装在D盘下,checkpoint地址配置为 file:///Users/flink/checkpoints/TestCheckPoint,那

Flink:并行度介绍和设置并行度

并行度一个Flink程序由多个Operator组成(source、transformation和sink)。一个Operator由多个并行的Task(线程)来执行,一个Operator的并行Task(线程)数目就被称为该Operator(任务)的并行度(Parallel)并行度可以有如下几种指定方式1.OperatorLevel(算子级别)(可以使用)一个算子、数据源和sink的并行度可以通过调用setParallelism()方法来指定2.ExecutionEnvironmentLeel(Env级别)(可以使用)执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定

Flink 容错机制 保存点和检查点

配置检查点//配置检查点env.enableCheckpointing(180000);//开启checkpoint每180000ms一次env.getCheckpointConfig().setMinPauseBetweenCheckpoints(50000);//确认checkpoints之间的时间会进行50000msenv.getCheckpointConfig().setCheckpointTimeout(600000);//设置checkpoint的超时时间即一次checkpoint必须在该时间内完成不然就丢弃env.getCheckpointConfig().setCheckpoi

基于 Dinky + FlinkSQL + Flink CDC 同步 MySQL 数据到 Elasticsearch、Kafka

一、概述Dinky是一个开箱即用的一站式实时计算平台以ApacheFlink为基础,连接OLAP和数据湖等众多框架致力于流批一体和湖仓一体的建设与实践。本文以此为FlinkSQL可视化工具。FlinkSQL使得使用标准SQL开发流式应用变得简单,免去代码开发。FlinkCDC本文使用MySQLCDC连接器允许从MySQL数据库读取快照数据和增量数据。环境及主要软件版本说明kafka_2.12-3.4.0.tgzflink-1.14.6-bin-scala_2.12.tgzflink-sql-connector-mysql-cdc-2.3.0.jarflink-sql-connector-ela

Dinky: 实时即未来,让 Flink SQL 纵享丝滑--如何本地编译、运行

什么是Dinky实时即未来,Dinky为ApacheFlink而生,让FlinkSQL纵享丝滑。Dinky是一个开箱即用、易扩展,以ApacheFlink为基础,连接OLAP和数据湖等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。最后,Dinky的发展皆归功于ApacheFlink等其他优秀的开源项目的指导与成果如何在本地编译、运行?clone项目gitclonehttps://github.com/DataLinkDC/dinky.git#根据需要决定是否切换到指定版本或分支#gitcheckout0.8.0构建mysql镜像#构建镜像cddinkydockerbuil

CDH 6.3.2下安装Flink

一、上传镜像(1)在/var/www/html/下新建flink-cdh文件夹将编译好的镜像上传到flink-cdh下,主要有下面三个文件FLINK-1.13.2-BIN-SCALA_2.11-el7.parcelFLINK-1.13.2-BIN-SCALA_2.11-el7.parcel.shamanifest.json(2)将FLINK_ON_YARN-1.13.2.jar上传到/opt/cloudera/csd文件夹下二、parcel配置点击配置,添加httpd中的cdh镜像路径三、重启cdhagent、server服务(1)systemctlrestartcloudera-scm-ag

Flink Environment Variable

序言我们在使用命令发布Flink任务的时候可以根据根据任务需要来设置环境变量(具体命令就是./flinkrun-application-tyarn-application),而不需要根据使用默认flink-conf.yaml的默认值,同时因为flink并不能自己根据任务的多少来设置算子的并行度等原因,所以根据任务的实际情况手动设置是很有必要的,如果要这么做就需要了解flink-conf.yaml的内容.cuiyaonan2000@163.com具体在命令中的使用也很简单就是在原有的key和value的键值对上,增加-D就行了,基于1.17.1原始内容Flink配置文件flink-conf.ya

云原生之深入解析Flink on k8s的运行模式与实战操作

一、概述Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。Flink官网不同版本的文档flinkonk8s官方文档GitHub地址二、Flink运行模式官方文档Flinkonyarn有三种运行模式:yarn-session模式(SeesionMode)yarn-cluster模式(Per-JobMode)Application模式(ApplicationMode)注意:Per-Job模式(已弃用),Per-job模式仅由YARN支持,并已在Flink1.15中弃用,